大数据的实时处理和离线处理

发布时间:2018-09-04 阅读量:245

跑批量,每隔一小时执行一次的数据处理方式,在一定程度上已不能满足用户需求。现在常用的数据处理方式,可分为实时处理和离线处理。


数据的分类

一.实时处理:Flume+Kafka+Storm+Mongo

通过Flume进行数据的的采集,将数据推送给Kafka作为数据的缓存层,Storm作为kafka的消费者,从而进行实时的处理。最终,通过Web展示给前端,能够实时统计和分析车辆的在线总数,轨迹点总数,对此可以做一些相关的应用。


数据来源:主要是Nginx 服务器获取的GPS数据和MSp数据格式都是JSON

数据采集:通过Flume的拦截器对日志进行预处理,将数据存储在缓存层kafka

数据统计:通过Storm实时拉取数据做计算,将临时结果数据存储在Redis

数据落地:最终的数据存储在Mongo中,定时获取Redis中的数据,存储在Mongo

Web展示:查询数据库定时更新前端页面,可以查看车辆的一些情况。

二.离线处理:hadoop +hive

Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性。

通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。

离线数据存储,找成都吉福汇,专业的团队、优秀的解决方案、良好的售后服务,让用户省心更放心!

 

文章转自网络,如有侵权请联系删除